We propose a new self-supervised method for pre-training the backbone of deep perception models operating on point clouds. The core idea is to train the model on a pretext task which is the reconstruction of the surface on which the 3D points are sampled, and to use the underlying latent vectors as input to the perception head. The intuition is that if the network is able to reconstruct the scene surface, given only sparse input points, then it probably also captures some fragments of semantic information, that can be used to boost an actual perception task. This principle has a very simple formulation, which makes it both easy to implement and widely applicable to a large range of 3D sensors and deep networks performing semantic segmentation or object detection. In fact, it supports a single-stream pipeline, as opposed to most contrastive learning approaches, allowing training on limited resources. We conducted extensive experiments on various autonomous driving datasets, involving very different kinds of lidars, for both semantic segmentation and object detection. The results show the effectiveness of our method to learn useful representations without any annotation, compared to existing approaches. Code is available at \href{https://github.com/valeoai/ALSO}{github.com/valeoai/ALSO}
translated by 谷歌翻译
Can continuous diffusion models bring the same performance breakthrough on natural language they did for image generation? To circumvent the discrete nature of text data, we can simply project tokens in a continuous space of embeddings, as is standard in language modeling. We propose Self-conditioned Embedding Diffusion, a continuous diffusion mechanism that operates on token embeddings and allows to learn flexible and scalable diffusion models for both conditional and unconditional text generation. Through qualitative and quantitative evaluation, we show that our text diffusion models generate samples comparable with those produced by standard autoregressive language models - while being in theory more efficient on accelerator hardware at inference time. Our work paves the way for scaling up diffusion models for text, similarly to autoregressive models, and for improving performance with recent refinements to continuous diffusion.
translated by 谷歌翻译
我们提出BYOL-QUENPLORE,这是一种在视觉复杂环境中进行好奇心驱动的探索的概念上简单但一般的方法。Byol-explore通过优化潜在空间中的单个预测损失而没有其他辅助目标,从而学习了世界代表,世界动态和探索政策。我们表明,BYOL探索在DM-HARD-8中有效,DM-HARD-8是一种具有挑战性的部分可观察的连续操作硬探索基准,具有视觉富含3-D环境。在这个基准上,我们完全通过使用Byol-explore的内在奖励来纯粹通过增强外部奖励来解决大多数任务,而先前的工作只能通过人类的示威来脱颖而出。作为Byol-explore的一般性的进一步证据,我们表明它在Atari的十个最难的探索游戏中实现了超人的性能,同时设计比其他竞争力代理人要简单得多。
translated by 谷歌翻译
在考虑收集训练数据集测量的复杂性时,对自动目标识别(ATR)进行自动目标识别(ATR)的有希望的潜力消失了。模拟可以通过生成合成训练数据集来克服此问题。但是,由于模拟的代表性有限,在处理测试时间进行实际测量时,以合成图像的经典方式训练的模型具有有限的概括能力。以前的作品确定了一组同样有希望的深度学习算法来解决此问题。但是,这些方法已在非常有利的情况下通过合成训练数据集进行了评估,该数据集过于拟合测量的测试数据的基础真相。在这项工作中,我们研究了这种理想条件以外的ATR问题,这在实际的操作环境中不太可能发生。我们的贡献是三倍。 (1)使用mocem Simulator(由Scalian DS为法国MOD/DGA开发),我们生成了一个合成的MSTAR训练数据集,该数据集与实际测量值显着不同。 (2)我们通过实验证明了最先进的限制。 (3)我们表明,可以将域随机化技术和对抗训练结合在一起以克服此问题。我们证明,这种方法比最先进的方法更强大,精度为75%,同时对培训期间的计算性能影响有限。
translated by 谷歌翻译
已经提出了几十年来捕获胶质瘤的生长,最常见的原发性脑肿瘤的反应扩散模型。然而,关于估计这些模型的初始条件和参数值的严重局限性将其临床用作作为个性化工具。在这项工作中,我们调查了深度卷积神经网络(DCNN)来解决现场遇到的缺陷的能力。基于从磁共振(MR)数据的磁共振(MR)数据产生的1,200种合成肿瘤,我们证明了DCNN在单个时间点仅从两个成像轮廓重建整个肿瘤细胞密度分布的能力。通过在先前时间点提取额外的成像轮廓,我们还证明了DCNN准确估计模型的各个扩散性和增殖参数的能力。从这些知识来看,最终可以使用该模型精确地捕获稍后时间点处的肿瘤细胞密度分布的时空演变。我们终于展示了我们对真正的胶质母细胞瘤患者的先生数据的适用性。这种方法可以打开反应扩散生长模型的临床应用的视角,用于肿瘤预后和治疗计划。
translated by 谷歌翻译
我们介绍了视觉问题应答(VQA)的评估方法,以更好地诊断捷径学习案例。当模型利用虚假统计规则产生正确答案但实际上没有部署所需的行为时,会发生这些情况。需要在数据集中识别可能的快捷方式,并在部署现实世界中的模型之前评估它们的使用。 VQA的研究界专注于基于问题的快捷方式,其中模型可能是通过依赖于先前的问题条件培训并提供重量的问题条件培训来回答“天空的颜色”。视觉证据。我们进一步逐步,考虑涉及两个问题和图像的多模式捷径。我们首先通过挖掘琐碎的预测规则,例如诸如单词和视觉元素的共同发生的琐碎的预测规则来确定流行的VQA V2培训中的潜在捷径。然后,我们将介绍VQA-Consterexamples(VQA-CE),一个评估协议,基于我们的反例等的子集i.e.图像 - 问题答案三胞胎,我们的规则导致错误的答案。我们在大规模研究VQA现有方法中使用这一新评估。我们表明即使是最先进的模型也表现不佳,并且在这种情况下,降低偏差的现有技术在很大程度上无效。我们的研究结果表明,过去的vqa中的基于问题的偏差的工作仅签署了一个复杂问题的一个方面。我们方法的代码可在https://github.com/cdancette/detect-shortcut中获得。
translated by 谷歌翻译
自我监督的学习提供了一个有希望的途径,消除了在图形上的代表学习中的昂贵标签信息的需求。然而,为了实现最先进的性能,方法通常需要大量的负例,并依赖于复杂的增强。这可能是昂贵的,特别是对于大图。为了解决这些挑战,我们介绍了引导的图形潜伏(BGRL) - 通过预测输入的替代增强来学习图表表示学习方法。 BGRL仅使用简单的增强,并减轻了对否定例子对比的需求,因此通过设计可扩展。 BGRL胜过或匹配现有的几种建立的基准,同时降低了内存成本的2-10倍。此外,我们表明,BGR1可以缩放到半监督方案中的数亿个节点的极大的图表 - 实现最先进的性能并改善监督基线,其中表示仅通过标签信息而塑造。特别是,我们的解决方案以BGRL为中心,将kdd杯2021的开放图基准的大规模挑战组成了一个获奖条目,在比所有先前可用的基准更大的级别的图形订单上,从而展示了我们方法的可扩展性和有效性。
translated by 谷歌翻译
We introduce Bootstrap Your Own Latent (BYOL), a new approach to self-supervised image representation learning. BYOL relies on two neural networks, referred to as online and target networks, that interact and learn from each other. From an augmented view of an image, we train the online network to predict the target network representation of the same image under a different augmented view. At the same time, we update the target network with a slow-moving average of the online network. While state-of-the art methods rely on negative pairs, BYOL achieves a new state of the art without them. BYOL reaches 74.3% top-1 classification accuracy on ImageNet using a linear evaluation with a ResNet-50 architecture and 79.6% with a larger ResNet. We show that BYOL performs on par or better than the current state of the art on both transfer and semi-supervised benchmarks. Our implementation and pretrained models are given on GitHub. 3 * Equal contribution; the order of first authors was randomly selected.
translated by 谷歌翻译